Mecanismos de Olvido para Aprendizaje por Refuerzo No Estacionario
Descubre el novedoso mecanismo de olvido por decaimiento de valor espacial para RL no estacionario. ¡Mejora DQN y SAC!
Descubre el novedoso mecanismo de olvido por decaimiento de valor espacial para RL no estacionario. ¡Mejora DQN y SAC!
Space-sampled Value Decay: un mecanismo de olvido explícito que mejora la adaptación de Deep RL a entornos no estacionarios. Conoce sus ventajas y limitaciones.